查看原文
其他

拾象AI投资图谱:大浪已至,展望Infra百亿美金公司机遇

拾象 海外独角兽 2023-02-18


MidJourney 生成


作者:Cage

编辑:penny

排版:Lydia

ChatGPT 技术和交互形式的创新,让 AI 成为时下最流行的议题,也让人开始思考机器学习和整个 AI 产业的未来。


以 LLM(大语言模型)为基础的 AI 展现出的了极强的语义理解和多模态泛化能力,与 2020 年前产业中的 ML 模型已逐渐划分了界限:传统机器学习擅长处理结构化数据,机器学习的渗透率还在渐进式地稳步增长;大语言模型擅长理解非结构化数据,带着破坏性的生产力创造很多增量需求场景。


在这背后,其实是近 3-5 年以来整个 AI 产业的合力:硬件算力和云计算能力的提升为 AI 算法研究提供了土壤,算法进步的过程中部分工作流会抽象成更高效的 MLOps 工具,算法与工具的成熟为下游应用层需求的实现铺平了道路。如果把 AI 的进步比作大浪,应用层可能更像浪上的小船,面临颠簸洗牌。相比起来,作为 Infra 层的 AI 算法和 AI 工作流工具确定性更高,是我们本次研究主要聚焦的对象。


AI 技术上, 大语言模型 + RLHF、多模态 AI 生成技术,和 AI For Science 算法进展飞速。后两者已被开源社区基本复现,而大语言模型方向的模型量级和工程难度最大。在顶尖团队中,AI 安全将和 AI 智能成为同等重要的议题。顶尖团队外,值得关注开源社区对大语言模型的追赶速度和质量。


如果研究所和开源社区差距较为稳定,AI 模型开发可能会出现 iOS vs 安卓的格局;如果差距逐渐放大,AI 研究所会研发专业的大模型,开源团队主要做中小模型的工作。


而在 AI 工作流中, 我们梳理了整个机器学习工作流和价值链,指出其中能产生重要公司的环节,以及各环节值得 bet 的公司,并且分析推演了在 LLMOps 场景下可能产生的新需求。由于预训练模型替下游完成了很多模型离线训练的操作,我们会更为看好工作流中在线部署阶段的工具将成为主流需求,其中 Model Hub、Model Serving 和模型监控都是我们较为看好的方向。此外基于自然语言的大模型会使擅长结构化数据的 Feature Store 的需求减少,而非结构化的向量搜索数据库的使用场景将增加。



以下为本文目录,建议结合要点进行针对性阅读。


👇


01 研究框架

02 AI 算法:2022 年 AI 技术关键词

03 AI 工作流:理解工作流,才能捕捉 MLOps 中的重要机会




01.


研究框架


在我们对 AI 产业的研究框架中,包含了基建层、算法层、工作流层和应用层。这四层分别为这一波的 AI 浪潮提供了不同的资源条件:


1. 以 NVIDIA 为首的 AI 硬件算力进步使大模型的单次训练成本降至可以接受的 1000 万美元以下,而未来随着大模型的趋势,推理侧将成为主要的算力需求来源。同时以 Azure 为首的云厂商一端握着全球大部分的算力资源,一端集成了 AI 建模的能力,也将成为基础设施的重要部分。


2. 以 OpenAI 为首的 AI 算法研究所连续发布了文本、图片等多模态生成的高质量模型,其中对话和图片产出内容质量之高使其短期内成为提高内容生产效率的工具,长期将成为下一代交互方式乃至计算机。与此同时,它的两位直接竞争者 DeepMind 和 Anthropic 也有很强的竞争力,Google 和 Meta 作为科技大厂在数据量上有很大优势,但组织上相对缺少活力。


3. 行业的 AI 工作流在传统 ML 模型阶段就已逐渐成型,这一领域由于整体的非标属性,很难出现统一的 MLOps  平台。而是主要分为从 0 到 1(离线数据准备+模型搭建)和从 1 到 100(模型上线和部署)两部分。随着 LLM 趋势的确定,从 1 到 100 的部分将成为之后重头的发展模块。LLMOps 的发展将为未来大模型的部署和推理提供重大的助推作用。


4. AI 应用层公司得益于上游分摊了大量研发成本,开始针对垂直应用场景定制模型,将行业领域经验注入大模型,很快地实现了商业化变现,让市场对这一波 AI 技术有了很强的信心。这类公司发展的下限,取决于是否能占据工作流中举足轻重的位置,比如 Jasper 提供了营销文本端到端的输入到输出;而其上限,则要看其与老牌工作流软件的竞争格局,还是以 Jasper 为例,新老工作流 Office 和 Notion 的围追堵截会让其腹背受敌。





02.


AI 算法:2022 年 AI 技术关键词


大语言模型 + RLHF

ChatGPT 成功破圈,强化学习重新回到前沿视野


2022 年 AI 领域的头条必然是 ChatGPT 。它连续多轮对话中对人类意图的理解,不仅充分证明了 GPT-3 是当今最强的 LLM (大语言模型),而且展现了 OpenAI 在一众 AI 研究团队中领先的公关能力。


在此前 LLM 研究火热之时,强化学习的研究热度一定程度上有所冷落,而 ChatGPT 很巧妙的地用强化学习作为 AI alignment(控制 AI 与人类意图目标对齐)这个学界难题的解法,使 GPT 做到了社会化的对话和学习。这个思路巧妙,而且对数据的质量、数量,还有奖惩函数的设计要求都很高。相比之前的 DALL-E,复现和开源的挑战要大不少。


对于即将发布的 GPT-4,有几个能力的突破值得期待:一来,是否在长文本理解和生成上有突破;二来,是否能基于 ChatGPT chain-of-thoughts 的路径产生更强的推理能力;再者,是否将会具备多模态生成的能力。基于一些学界的研究,GPT-4 的参数量可能不会大幅增加,DeepMind 在今年初 Chinchilla 的研究中证明了小模型效果也能不亚于大模型,因为大参数模型训练时使用的数据量往往没充分激发大模型的潜能,有 under-trained 的倾向。


提到 DeepMind,还值得展望的就是 OpenAI 竞争者们的发展。谷歌基于 LamDA 的 Bard 聊天机器人对标 ChatGPT,已经开始小范围测试,是和 OpenAI 在技术上最接近的公司。Meta、DeepMind、Anthropic 也有相应的技术储备。下表对以上公司的这些 AI 聊天机器人进行对比。其中谷歌的 Bard 和 OpenAI 的 ChatGPT 目前没有公开的信息,因此主要使用两者的前一代模型 LamDA 和 InstructGPT 的详细信息作为参考:



💡

引用自: Hugging Face - 解读 ChatGPT 背后的技术重点:RLHF、IFT、CoT、红蓝对抗

https://blog.csdn.net/HuggingFace/article/details/128843029


多模态 AIGC

多模态生成元年,图片 AIGC 走入内容行业


2022 年出圈的除了 ChatGPT,还有擅长以文生图的生成式 AI 算法,其创作的内容也被大家称为 AIGC,是互联网中除 UGC、PGC 外的第三种内容形式,其对未来的内容生态和生产方式有着变革性的意义。


相比大语言模型,这一类模型可以成为中小模型。经过特殊优化后的 Stable Diffusion 甚至可以在 iPhone 上实现推理。多模态生成的技术有两个核心模型框架:CLIP 和 扩散模型(Diffusion Model)。CLIP 将文本与图片的数学表达通过压缩后相似度比较的方式得以打通;扩散模型模拟了我们在脑海中构思绘画时,从一片空白噪音中构想出符合文字内容的结构和色彩的过程。


沿着以上提到的未来 3 年内生成类 AI 会在两个方面突破:其一,多模态模型的生成能力会在更高数学复杂度的模态中获得技术突破,主要体现在视频和 3D 应用,多模态的呈现丰富了 AI 创作的表达方式。其二,生成式 AI 的推理时间和金钱成本都会显著降低,这将是缩短实际落地中的 latency 并优化成本,从需求和供给两端都能有更大规模的商用落地空间,使其能在手机终端等边缘侧落地。


AI For Science

DeepMind 在基础科学领域贡献数篇 Nature 论文,为科学发现提效


所谓 AI for science,就是把深度学习技术,用于各个不同的场景,用于各个基础学科加速科研创新和成果转化。在这个方向,目标一般都是比较明确、具体的:比如解量子力学方程、解复杂的流体力学方程、建议合成化学分子的路径、蛋白质折叠、针对靶点设计小分子药物等。这个技术不能帮助基础科学的从 0 到 1,但是能加速从 1 到 100 的过程。


以 DeepMind 的 AlphaZero 为例,它有很多专业特化版本,AlphaGo 是其围棋领域的专业版本,而 AlphaTensor 模型是其基于矩阵运算的特化版本。矩阵乘法作为一个具有广泛应用的基础操作,提高这种基础运算的计算效率会带来广泛的应用。标准的矩阵乘法是由数值的加法和乘法组成的。在计算机中,乘法带来的计算消耗远大于加法带来的计算消耗。快速矩阵乘法问题就是去寻找数值乘法次数更少的矩阵乘法算法的问题。




而根据数学家的推导,张量分解的秩越小,导出矩阵乘法算法中的乘法次数越少。至此,成功地将“寻找快速矩阵乘法算法”的问题,转化为“寻找张量表示的低秩分解”这样分步解题,类似下围棋这样 game 的问题。对这一反复解题试错的过程,就是 AI 算法有用武之地的空间:AlphaTensor 使用了 Transformer 作为 backbone 算法训练了这个网络。


可以看到,AI for Science 的思路往往是在将一个实际学术问题抽象成一个具有一定搜索空间的优化问题,再使用深度强化学习进行搜索,能为很多问题提供可行解。这一领域的兴起才刚刚开始,期待有更多 AI 算法成为基础科学家的智能助理。


开源 vs 闭源

开源社区追赶前沿大模型的速度变快,iOS 与安卓之争延续?


在生成式 AI 向前推进的过程中,围墙花园依然存在。OpenAI 并不 open 地仅开放商业化付费 API 作为 GPT-3 的使用方式,谷歌的大模型也并未开源。


但开源团队是共同推进行业技术共同进步的重要力量,其意义是不言而喻的。大模型通过开放 API 所能提供的能力相对有限,针对一些特殊的场景无法制作定制化的模型设计。作为对人类知识体系的抽象与提炼,只有最大化可复现性、开放给最多的场景,才能得到最大限度的释放。


因此 AI 开源社区和团队的生态也在繁荣生长,开源团队追赶以 OpenAI 为首的研究所主导的 AI 算法创新方向的速度,也越来越快了。虽然这种复刻并不是无损的,但这就好比安卓与 IOS 的关系,必然能各自吸引相应的需求方。而且开源社区的生态越来越好,能调动越来越多的专业力量。比如由 Hugging Face 带头发起的开放式协作组织 BigScience 研发出的 BLOOM,是来自 70 多个国家的 1000 多名研究人员在超级计算机上训练了 117 天的结果。


下图展示了开源社区追赶 AI 模型的时间线,可以看到技术追赶速度正在逐渐变快。那么这个趋势是否会持续呢?如果差距持续缩小或较为稳定,AI 模型开发可能成为 iOS vs 安卓的格局;而还有另一种可能,则是差距逐渐放大,AI 研究所专业化地研发大模型,开源团队主要做中小模型的工作。这一判断的关键因素,会是各团队对 ChatGPT 模仿与超越的进度。





03.


AI工作流:理解工作流,才能捕捉 MLOps 中的重要机会


主要结论


1. MLOps 的工作流比较流动,尚未收敛成稳定的链路。大型科技公司基本使用自研平台或开源技术,新科技公司选择 MLOps 创业公司的商业产品。因为行业还在早期,infra 产品的职责还未收敛,需要随着从业者职责的分工专业细化,DevOps 的历史也是如此。


2. ML 工作流中端到端的标准解决方案难以实现,不看好平台化的 AutoML 产品。其难以实现的原因在于,该工作流程可以分为从 0 到 1(离线数据准备+模型搭建)和从 1 到 100(模型上线和部署)两部分。前者很非标,比较 data-oriented,更可能出从数据衍生出相对平台化的机会;后者很垂直,相对更佳 model-centric,技术壁垒与挑战更高。下图中右边的小圈,是从 0 到 1 的工作流,左侧的大圈是从 1 到 100 的工作流:



3. MLOps 会随着这一波 LLM 大模型的形态有所演变,LLMOps 会成为重要趋势。当下最火的大模型 LLM 就有很多 infra 需求都将加入现有的工作流模块中,如微调工具、微调后的 LLM 部署、大模型的剪枝和蒸馏、提示词实验、数据合成和增强等。


4.而传统的工作流中部分模块的重要性也会有所变化:例如,基于自然语言的大模型语境下,擅长结构化数据的 Feature Store 需求减少,而非结构化的向量搜索数据库的使用场景增加。


5. 预训练模型替下游完成了很多模型从 0 到 1 的操作,离线模型训练的需求会减少,前置模型获取和在线部署阶段的工具将成为主流需求,其中 Model Hub、Model Serving 和模型监控都是我们较为看好的方向。在顶尖团队中,AI 安全将和 AI 智能成为同等重要的议题。


6. 此外,对于数据相关的服务,我们的观点较为复杂:一方面,data-oriented AI 是该领域很重要的命题,高质量的数据在 RLHF 中体现了其重要性, AIGC 未来可能能有效地为自动驾驶等场景提供很多高质量的合成数据;但另一方面,LLM 本身具有很强的自监督属性,数据标注在大部分训练过程中可能不是刚需。因此,这一领域可能总体呈存量需求减少,增量需求增加的趋势。


流程拆解


以下对 AI 工作流总体可以拆解成四个垂直模块:数据准备,模型训练,模型部署和产品整合。前两部分主要负责从 0 到 1(离线数据准备+模型搭建),后两部分主要负责从 1 到 100(模型上线和部署)两部分。可参考下图:



对每一个有商业化变现可能性的模块,我们将从 4 个维度进行评价:


1. LLMOps 前景:在新的 LLM 场景下,是否会有大机会和潜在需求;

2. 必要性:是否业务刚需,失去这一模块后工作流无法继续;需求是否明确且稳定;

3. 用户粘性:客户使用后,是否较高的迁移成本/较强的社区忠诚度;

4. 商业潜力:预期使用用户基数与客单价是否高。


数据准备


Feature Store


1. 作用:管理机器学习输入 (X, y) 中的 X 部分,原有的样本组织结构过于简单不够灵活,对于很多基本的特征需求需要很高成本才能满足,于是有了 Feature Store 的诞生。主要可以进行:


离线特征工程,在训练时更灵活地调整需要使用的特征组合和加工方式;在线实时预测,将线上的数据流灵活地提供给 model serving;和线上数据监控,保障模型使用的数据分布与质量的安全性。



2. 代表性公司:Tecton,Feast(开源团队,创始人已加入 Tecton)。


3. 商业价值评价:


• 必要性:S,特征的灵活处理和加工是好的机器学习模型的燃料,对于线上训练尤其如此;


• 用户粘性:A,在工作流中占据重要位置且有 feature 数据留存,用户使用后较难迁移;但是由于上游数据存储往往由云服务实现,AWS 旗下对应服务对其用户的长期留存存在威胁;


• 商业潜力:S,用户需求量会随着传统 ML 模型的大规模使用而上升;高客单价(10W + 美金),按数据量计价。


4. LLMOps 前景:0


Feature Store 这一概念使用于传统 ML 结构化数据的场景,常见在金融风控、推荐系统等领域。而在 LLM 大语言模型的场景下,训练和推理数据不以这种形式进行组织,故 Feature Store 在 LLMOps 下没有使用前景。


数据标注


1. 作用:标注机器学习输入 (X, y) 中的 y 部分,在一部分目标变量 y 缺失的业务场景为 AI 模型提供人类先验知识的输入。作为上一代 AI 兴起时最旺盛的需求,在计算视觉领域使用场景相对较多。



2. 重要公司:Scale(人工数据标注供应商),Snorkel(使用模型对数据进行合成 / 标注)。


3. 商业价值评价:


• 必要性:A,在计算机视觉和强化学习领域必要性高;大语言模型拥有自监督学习能力,必要性低;


• 用户粘性:B,作为服务供应商基本没有迁移成本;


• 商业潜力:A,服务需求量大,AI 模型计算对数据标注的数量要求高。由于低人力成本,毛利较高。计费单位为单图片/视频/文本计价,单价在 0.02-0.15 美元之间。


4. LLMOps 前景:-


• 存量需求:减少。LLM 本身具有很强的自监督属性,数据标注在大部分训练过程中可能不是刚需。


• 增量需求:增加。data-oriented AI 依然重要,但重点将从标注数据转移到创造高质量数据。


例如 OpenAI 在 ChatGPT 中创新的对话数据形式,就是该模型的关键。如果 RLHF 成为通往 AGI 持续的技术路径,数据标注将成为一个持续增加的需求。此外 AIGC 合成数据也有着广阔的前景,未来可能能有效地为自动驾驶等场景提供很多高质量的合成数据,解决其数据量解决 corner case 的瓶颈问题。


模型训练


Model Hub


1. 作用:机器学习届的 Github,以更 AI-native 的方式组织 AI 开源社区,为 AI 研发提供安卓式的环境。


2. 重要公司:Hugging Face。


3. 商业价值评价:


• 必要性:A,当需求个性化搭建 AI 预训练模型时不二的选择,但如果选择使用标化模型则不需要通过模型库;


• 用户粘性:S,氛围优秀的开源社区有着很强的用户忠诚度;


• 商业潜力:A,占据着数据科学工作流的入口位置,用户数量较大;但其开源属性增大了其商业化难度,目前变现手段不多。


4. LLMOps 需求:增加


传统 ML 模型规模小,训练成本低,基本不依赖 Model Hub;大语言模型场景下许多科学家和工程师通过 Model Hub 调用开源的预训练模型和参数,来减少自己从头训练和定制化模型的成本。


深度学习框架


1. 作用:AI 模型训练与推理的核心框架,使模型能够高效的实现计算。以深度学习框架为例,其内嵌实现了以下事情:可以绕开手写 CUDA 代码,直接简单地使用 GPU 搭建模型。这使得深度学习框架门槛变低很多,只需要定义神经网络的结构与损失函数,即可跑通一个基本的模型。


2. 重要产品:Tensorflow (Google), PyTorch (Meta), Jax。


Tensorflow 先发优势明显,早期占据了业界的主流。但其版本管理做得不好,易用性也略逊于 PyTorch,在学界被 PyTorch 后发超越。目前在业界使用 PyTorch 的公司也在变多,但由于迁移成本高,Tensorflow 也有一定公司在使用,况且 Tensorflow 是使用谷歌开发的 TPU 的主要选择。


3. 商业价值评价:


• 必要性:S


• 用户粘性:S


• 商业潜力:B,尽管这一领域没有显著的商业潜力,但还是在这里介绍一下这类框架,因为这是当前所有 AI 模型的基石,有着很强的生态意义。


分布式框架


1. 作用:在 AI 乃至整个计算领域,随着计算规模的增大,单个硬件和带宽都达到上限。而分布式计算框架就是在这样的背景下将一个庞大的 AI 模型、或是数据流分配给多个硬件进行处理,最后再综合起来得到结果。


而传统的分布式计算框架,以 Spark 为首,都是诞生于前 AI 时代,其技术栈与 AI 开发过程中使用的语言和技术不完全的适配。因此会有新一代的分布式计算框架涌现出来。


2. 重要公司:Anyscale。


3. 商业价值评价:


• 必要性:A,能给分布式计算过程带来一定的加速,但不在主流的 AI 工作流上,不使用也完全可以跑通工作流;


• 用户粘性:S,使用分布式计算框架意味着对公司的计算数据流做比较大的改造,改造完成后迁移成本较高;


• 商业潜力:B,作为开源框架需要企业中一定的人力才能投入使用,商业化存在一定难度。


4. LLMOps 需求:-


• 存量需求:可能增加。对于 Anyscale 的 Ray 这样的框架,如果 RLHF 成为技术路径,基于强化学习运算的需求会显著增加;


• 增量需求:增加。在大模型动辄 100 GB+,最大的 GPU 显存只有 80 GB 的背景下,对于 GPU 分布式计算的需求会增加。Oneflow 和 Colossal AI 等框架是这样增量框架下比较值得关注的公司。


模型上线


实验管理


1. 作用:追踪模型版本,验证模型性能,选择最优版本的模型进行上线。在团队协作和保证模型可复现性上很重要。



2. 重要公司:Weights & Biases,Neptune.ai。


3. 商业价值评价:


• 必要性:S,深度学习作为工程大于理论的应用型算法,工程实验的管理是刚需;


• 用户粘性:S,模型性能的历史存档有复现价值,使其存在一定的迁移成本;


• 商业潜力:A,用户基数大,但客单价相对低,因为其呈现形式是一个比较轻量化的工具。


4. LLMOps 需求:不变,需求稳定存在。


模型部署和 serving


1. 作用:模型部署是指把训练好的模型在特定环境中运行的过程。过程中需要最大化资源利用效率,且保证模型部署上线后在用户使用时有优异的性能。出色的部署工具能够解决模型框架兼容性差和模型运行速度慢这两大问题。具体使用场景可以参考下图:



2. 重要公司:BentoML, OctoML。


3. 商业价值评价:


• 必要性:A,Ray/Tensorflow/PyTorch Serving 都有自己的 serving 开源框架,离开专业产品仍有开源工具可用;


• 用户粘性:S,迁移成本主要体现在与模型、应用两端的适配上,迁移都会导致线上模型的停用,对于成熟的 AI 产品会造成用户的损失;


• 商业潜力:A,以 AI 为基础的产品对线上模型latency、稳定性等的要求比较高,且优秀的模型部署能降低成本,决定了用户的付费意愿会比较强;用户技术相对之前大部分模块,处于工作流漏斗的下游,相对较少。


4. LLMOps 需求:增加


基于 AI 的应用和产品会越来越多,优秀的模型部署能降低模型的推理成本并提高性能,模型部署和 serving 会在 LLMOps 重要的需求,且可能会衍生出模型剪枝、蒸馏等能压缩模型冗余的部署 serving 需求。


模型监控


1. 作用:保障线上模型可用性和可观测性,实时保持对模型输出结果和指标的监控。未来会是模型可解释性和安全的重要领域。



2. 重要公司:Fiddler, Arize, Arthur, Whylab。


3. 商业价值评价:


• 必要性:S,模型的监控和快速定位问题是模型上线后的刚需;


• 用户粘性:B,迁移成本不高,因为在整个工作流的最后端,且比较外置;


• 商业潜力:A,当前产品技术壁垒相对不高,决定了尽管用户基数大,但大家的付费意愿还相对较低。模型安全领域会随着模型的发展和进一步落地有很重要的机会,现在的形态还是相对单薄。


4. LLMOps 需求:增加,LLM 语境下的 AI 安全将成为重要命题。


LLM 大语言模型的性质比传统 ML 模型更为复杂,有包括 Prompt Engineering 等激活和微调方法存在。为了保障安全性和可解释性,随着 LLM 在软件中的深入落地,对模型的监控和后续管理会有着更高的要求。目前已经有新型公司,如 HumanLoop 在专注这个领域,之前的公司中 Whylab 也在做相应的尝试。


产品整合


向量搜索数据库


1. 作用:非结构化数据库,储存的数据形式为向量 embedding,在推荐系统、搜索引擎、异常检测、LLM、多模态等场景下都是数据输出、搜索、召回的重要形态。



2. 重要公司:Pinecone, Zilliz。


3. 商业价值评价:


• 必要性:A,向量数据的高速搜索对于未来高性能的 AI 软件很重要,当前并非必需。未来在多模态模型中,向量搜索的地位将变得非常重要;


• 用户粘性:S,迁移成本高,有数据留存,逻辑接近 DataOps;


• 商业潜力:A,当前计费单位为时长和储存量,随着数据量增大,客单价会变高;当前用户基数相对不大。


4. LLMOps 需求:增加


在 LLM 语境下,向量搜索和查询会在软件中扮演更重要的作用,而向量数据库则会成为这一方向中最重要的基础设施之一。


评价结果




(商业化机会较少的模块未进入本表格,其中绿色标注的为 LLMOps 场景下长期看好的赛道,而蓝色标注的为传统 MLOps 比较成熟的赛道)。


延伸阅读


ChatGPT,受惊骇的巨头们与焦虑中的军备竞赛


Tecton:AI infra 领域的 Snowflake?


Anyscale:Databricks 创始人再下场,ML 领域最值得期待的公司?


AIGC 时代来临,探寻生产力新蓝海机遇|活动回顾


Descript:OpenAI投资,像编辑文档一样编辑音视频

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存